2024-10-052025-04-19 随手记 2 分钟读完 (大约260个字) 0次访问

Interpretable Multi-Head Attention

Interpretable Multi-Head Attention
ls-type:: annotation
hl-page:: 9
hl-color:: yellow

#card InterpretableMultiHead $(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V})=\tilde{\boldsymbol{H}} \boldsymbol{W}_H$ 公式

$\begin{aligned} \tilde{\boldsymbol{H}} & =\tilde{A}(\boldsymbol{Q}, \boldsymbol{K}) \boldsymbol{V} \boldsymbol{W}_V \\ & =\left\{1 / H \sum_{h=1}^{m_H} A\left(\boldsymbol{Q} \boldsymbol{W}_Q^{(h)}, \boldsymbol{K} \boldsymbol{W}_K^{(h)}\right)\right\} \boldsymbol{V} \boldsymbol{W}_V \\ & =1 / H \sum_{h=1}^{m_H} \text { Attention }\left(\boldsymbol{Q} \boldsymbol{W}_Q^{(h)}, \boldsymbol{K} \boldsymbol{W}_K^{(h)}, \boldsymbol{V} \boldsymbol{W}_V\right)\end{aligned}$

Ryen Xiang

2024-10-05

2025-04-19

网络回响